فهرست مطالب

فصلنامه پردازش علائم و داده ها
سال نوزدهم شماره 1 (پیاپی 51، بهار 1401)

  • تاریخ انتشار: 1401/04/29
  • تعداد عناوین: 12
|
  • پیام بحرانی، بهروز مینایی بیدگلی، حمید پروین*، میترا میرزارضایی، احمد کشاورز صفحات 1-18

    انتظار می رود سامانه های پیشنهاد گر (RS) قلم های دقیق را به مصرف کنندگان پیشنهاد دهند. شروع سرد مهم ترین چالش در RSها است. RSهای ترکیبی اخیر، دو مدل پالایش محتوا پایه  (ConF)و پالایش مشارکتی (ColF) را با هم ترکیب می کنند. در این پژوهش، یک RS ترکیبی مبتنی بر هستان شناسی معرفی می شود که در آن هستان شناسی در بخش ConF به کار رفته است، این در حالی است که ساختار هستان شناسی توسط بخش ColF بهبود داده می شود. در این مقاله، رویکرد ترکیبی جدیدی مبتنی بر ترکیب شباهت جمعیت شناختی و شباهت کسینوسی بین کاربران به منظور حل مشکل شروع سرد از نوع کاربر جدید، ارایه شده است. همچنین، رویکرد جدیدی مبتنی بر ترکیب شباهت هستان شناسی و شباهت کسینوسی بین اقلام به منظور حل مساله شروع سرد از نوع قلم جدید، ارایه شده است. ایده اصلی روش پیشنهادی، گسترش پروفایل های کاربر/ قلم بر اساس سازوکارهای مختلف برای ایجاد پروفایل با عملکرد بالاتر برای کاربران/قلم ها است. روش پیشنهادی در یک مجموعه داده واقعی ارزیابی شده است و آزمایش ها نشان می دهند که روش پیشنهادی در مقایسه با روش های پیشرفتهRS ، به خصوص در مواجهه با مساله شروع سرد، عملکرد بهتری دارد.

    کلیدواژگان: سامانه پیشنهاد گر، هستان شناسی، توسعه پروفایل، سامانه پیشنهاد گر ترکیبی
  • حسین صدر، میرمحسن پدرام*، محمد تشنه لب صفحات 19-38

    یکی از مهم ترین داده های متنی موجود در سطح وب احساسات و دید گاه های افراد نسبت به یک موضوع یا مفهوم مشخص است. با این حال، یافتن و نظارت بر وبگاه های حاوی این احساسات و استخراج اطلاعات موردنیاز از آن ها به علت گسترش وبگاه های گوناگون کاری دشوار محسوب می شود. در این راستا، توسعه سامانه های تجزیه و تحلیل خودکار احساسات که بتواند نظرات را استخراج کرده و روند فکری مرتبط با آن ها را بیان کند، در سال های اخیر توجه زیادی را به خود جلب کرده است و روش های بر پایه یادگیری ژرف، یکی از راه کارهایی هستند که توانسته ا ند به نتایج چشم گیری در کاربردهای مختلف پردازش زبان های طبیعی به خصوص تجزیه و تحلیل احساسات دست یابند؛ اما این روش ها برخلاف عملکرد قابل توجه هنوز با چالش هایی مواجه هستند و نیاز به پیشرفت در این حوزه همچنان وجود دارد؛ ازاین رو، هدف این مقاله ترکیب مدل های یادگیری ژرف به منظور ارایه یک روش جدید برای تجزیه و تحلیل احساسات متنی است که بتواند ضمن استفاده هم زمان از مزایای شبکه های عصبی ژرف بر مشکلات آن ها چیره شود. در این راستا، در این مقاله روشی بر پایه ترکیب شبکه عصبی پیچشی و شبکه عصبی هم گشتی معرفی شده است که در آن به منظور حفظ وابستگی های بلندمدت در جملات و کاهش از دست رفتن داده های محلی که به عنوان چالش های شبکه عصبی پیچشی به شمار می آیند، از لایه هم گشتی تعمیم یافته که در آن از یک ویژگی میانی حاصل از ترکیب گره های فرزندان استفاده می شود، به عنوان جایگزین لایه ادغام در شبکه عصبی پیچشی بر پایه ساز و کار توجه استفاده شده است. بر اساس نتایج آزمایش ها، روش پیشنهادی به ترتیب با دقت 92/53 و 89/92 درصد روی مجموعه داده های SST1 و SST2  و دارای دقت بالاتری نسبت به سایر روش های موجود است.

    کلیدواژگان: تجزیه و تحلیل احساسات، یادگیری ژرف، شبکه عصبی پیچشی، شبکه عصبی هم گشتی، ساز و کار توجه
  • حدیثه پورعلی، حسام عمرانپور* صفحات 39-42

    در این مقاله به ارایه روشی برای پیش بینی سری زمانی پرداخته شده است. مدلی که در این مقاله ارایه شده بر پایه ترکیب کرنل ها و رگرسیون بردار پشتیبان است. رگرسیون بردار پشتیبان با استفاده از کرنل هایش توانایی بالایی در حل مسایل تخمین توابع دارد؛ اما این کرنل ها پارامترهایی دارند که نیاز به تنظیم دارند. در مدل پیشنهادی کرنل های مختلف بر روی داده ها اعمال می شوند. خروجی کرنل ها با اعمال یک ضریب، با هم ترکیب می شوند. این ترکیب باعث می شود یک فضای ثانویه جدیدی به دست آید. دلیل این امر این است که، ممکن است از بین کرنل های موجود فقط یک تعدادی از آن ها با ضریب خاصی برای صورت مساله مفید باشد و ما از این که کدام کرنل برای صورت مساله ما کارا است آگاه نیستیم. همچنین هرکدام از کرنل ها پارامتر هایی دارند که باید مقادیر بهینه آن ها برای دست یابی به نتیجه بهتر تعیین شوند؛ از این رو در مدل ارایه شده، یادگیری پارامتر های کرنل و وزن های آن ها توسط بهینه ساز گرگ خاکستری انجام می شود مدل پیشنهادی  روی پنج مجموعه سری زمانی استاندارد پیاده سازی شده که نتایج تست براساس معیار RMSE برای سری زمانی DJ، 58/1، سری زمانیRadio ، 178/0، سری زمانی Sunspot ، 709/1، نسبت به روش های دیگر بهتر شده است.  همچنین در انتها به تحلیل نتایج، ارزیابی آماری با آزمون ویلکاکسون رتبه علامت دار و ارایه رابطه برای یافتن اندازه پنجره در مدل پرداخته شده است.

    کلیدواژگان: پیش بینی سری زمانی، رگرسیون بردار پشتیبان، ترکیب توابع کرنل، بهینه سازی
  • عباس دهقانی*، کیوان رحیمی زاده صفحات 43-58

    معماری ترکیبی بی سیم شبکه روی تراشه به عنوان یک زیرساخت ارتباطی جدید جهت غلبه بر مشکلات معماری شبکه روی تراشه سنتی در سامانه های چندهسته ای پیشنهاد شده است. این معماری می تواند ارتباطاتی با پهنای باند بالا و توان مصرفی پایین برای سامانه های چند پردازنده ای روی تراشه را فراهم کند. از آنجا که هر مسیریاب بی سیم بین مجموعه ای از هسته های پردازشی مشترک است، احتمال ازدحام مسیریاب ها بالا می رود و در نتیجه منجر به افزایش تاخیر ارسال و مصرف توان می شود. در این مقاله یک معماری ترکیبی بی سیم روی تراشه شامل توپولوژی و ساز و کار آگاه از ازدحام ارتباطی با توجه به بهینه سازی کارایی و هزینه سامانه ارایه می شود. با استفاده از شبیه سازی، کارایی معماری پیشنهادی در مقایسه با معماری های مهم بی سیم روی تراشه مورد ارزیابی قرار می گیرد. نتایج شبیه سازی، موثر بودن معماری پیشنهادی را از منظر بهره وری شبکه، تاخیر ارسالی و مصرف توان تحت الگوهای ترافیکی گوناگون نشان می دهد.

    کلیدواژگان: شبکه روی تراشه، اتصالات بی سیم، چند پردازنده ای روی تراشه، چند هسته ای، ازدحام
  • محسن رضوانی*، منصور فاتح صفحات 59-74

    هدف اصلی در نهان‍نگاری پنهان‍سازی یک پیام مخفی با قراردادن آن پیام در یک رسانه پوشانه است؛ به نحوی که کمینه تغییرات در رسانه ایجاد شده و آن تغییرات به راحتی قابل درک نباشد. رسانه پوشانه می‍تواند یک بستر قابل دسترس توسط عموم نظیر متن، رایانامه، صوت، تصویر یا ویدیو باشد. با گسترش استفاده از رایانامه در بین کاربران اینترنتی، ارایه روش‍های نهان‍گاری در بستر رایانامه مورد توجه قرار گرفته است؛ ولی روش‍های موجود دارای محدودیت در ظرفیت نهان‍نگاری بوده و به طور عمومی مصالحه‍ای بین امنیت و ظرفیت نهان‍نگاری در نظر می‍گیرند. در این مقاله یک روش نوین برای نهان نگاری رایانامه ارایه شده است که مبتنی بر لغت نامه بوده و هم زمان ظرفیت نامحدود و امنیت بالایی را ارایه می کند. در گام نخست روش پیشنهادی، پیام به وسیله یک لغت نامه فشرده و رمز شده و سپس به یک رشته بیتی تبدیل می شود. در هر مرحله با توجه به تعداد نویسه های محتوای رایانامه، قسمتی از رشته انتخاب شده، معادل ده دهی آن محاسبه شده و سپس با توجه به کلیدهای موجود، با آن ها نشانی های رایانامه ساخته می‍شود. ظرفیت نهان نگاری نامحدود در روش پیشنهادی منجر به امکان مخفی سازی هر میزان پیام در متن پوشانه شده است. همچنین نتایج آزمایش ها نشان می دهد که استفاده از لغت نامه منجر به کاهش حجم پیام و همچنین کاهش تعداد نشانی های گیرنده به میزان حدودی 44 درصد در مقایسه با روش های موجود شده است. این مهم به طور مستقیم به افزایش سطح امنیت روش پیشنهادی کمک می کند.

    کلیدواژگان: نهان نگاری رایانامه، ظرفیت، امنیت، لغت نامه
  • فرشته جوادزاده، مهدی یعقوبی*، سهیلا کرباسی صفحات 75-86

    در سال های اخیر مدیریت فرآیندهای سازمانی (BPM)، به دلیل افزایش کارایی سازمان ها بسیار مورد توجه قرار گرفته است. استخراج و تحلیل اطلاعات فرآیندهای سازمانی بخش مهمی از این ساختار است؛ اما این فرآیندها در طول زمان پایدار نیستند و به مرور دچار تغییر می شوند که به این تغییرات، رانش مفهوم در فرآیند گفته می شود. کشف رانش های مفهوم یکی از چالش های موجود در حوزه مدیریت فرآیندهای سازمانی است. در این مقاله الگوریتمی برای شناسایی رانش های مفهوم در نگاره رویداد ارایه شده که براساس تحلیل توزیع گونه های دنباله در اجرای فرآیند است. در این روش با حرکت دو پنجره روی نگاره رویداد، دو بردار ویژگی از گونه های دنباله های دو پنجره حاصل و سپس با استفاده از آزمون های آماری گونه های دو پنجره با یکدیگر مقایسه و در نهایت رانش ها شناسایی می شوند. آزمایش های صورت گرفته روی پایگاه های داده مصنوعی، درستی روش و برتری آن را نسبت به روش های پیشین نشان می دهند.

    کلیدواژگان: رانش مفهوم، نگاره رویداد، فرآیند کاوی، فرآیندهای سازمانی، گونه
  • میر محمد علیپور*، محسن عبدالحسین زاده صفحات 87-100

    مساله تشخیص اجتماع، یکی از مسایل چالش برانگیز بهینه سازی است که شامل جستجو برای اجتماعاتی است که به یک شبکه یا گراف تعلق دارند و گره های عضو هر یک از آن ها دارای ویژگی های مشترک هستند، که تشخیص ویژگی های جدید یا روابط خاص در شبکه را ممکن می سازند. اگرچه برای مساله تشخیص اجتماع الگوریتم های متعددی ارایه شده است، اما بسیاری از آن ها در مواجه با شبکه های با مقیاس بزرگ قابل استفاده نیستند و از هزینه محاسباتی بسیار بالایی برخوردارند. در این مقاله، الگوریتم جدیدی مبتنی بر یادگیری تقویتی چندعاملی برای تشخیص اجتماع در شبکه های پیچیده ارایه خواهیم کرد که در آن، هر عامل یک موجودیت مستقل با پارامترهای یادگیری متفاوت هستند و بر اساس همکاری بین عامل ها، الگوریتم پیشنهادی به صورت تکرارشونده و بر اساس مکانیزم یادگیری تقویتی، به جستجوی اجتماعات بهینه می پردازد. کارایی الگوریتم پیشنهادی را بر روی چهار شبکه واقعی و تعدادی شبکه مصنوعی ارزیابی شده است، و با تعدادی از الگوریتم های مشهور در این زمینه مقایسه می کنیم. بر اساس ارزیابی انجام گرفته، الگوریتم پیشنهادی علاوه بر دقت بالا در تشخیص اجتماع، از سرعت و پایداری مناسبی برخوردار است و قابلیت رقابت و حتی غلبه بر الگوریتم های مطرح در زمینه تشخیص اجتماع را نیز داشته و نتایج الگوریتم پیشنهادی بر اساس معیارهای Q-ماجولاریتی و NMI متوسط بر روی شبکه های واقعی و مصنوعی به ترتیب 33/12%، 85/9% و بیش از 21 % بهتر از الگوریتم های مورد مقایسه است.

    کلیدواژگان: شبکه های پیچیده، تشخیص اجتماع، سیستم های چندعاملی، یادگیری تقویتی، Q-ماجولاریتی
  • محمد جعفرآباد*، روح الله دیانت صفحات 101-110

    برای انجام مطالعات داده کاوی، تاحدودی به دلیل پیچیده بودن فرآیند انتخاب ویژگی در کار مورد نظر، نیاز داریم تا بخشی از برچسب زنی را به کارگران در فعالیت جمع سپاری واگذار کنیم. فرآیند واگذاری کارهای داده کاوی به کاربران، اغلب به وسیله سامانه های نرم افزاری و بدون اطلاع دقیق از موقعیت سنی یا جغرافیای محل سکونت کاربران صورت می گیرد. عدم اطمینان از عملکرد کاربران مجازی در جمع سپاری، میزان صحت اطلاعات دریافتی را کاهش می دهد. در این مقاله پیشنهاد داده ایم تا با استفاده از روش های ایجاد انگیزش، تعدادی از مردم را در محلی جمع و از آنها در جهت وظایف جمع سپاری استفاده کنیم. افزایش دقت در اعلام نتایج به دلیل حضور فیزیکی، سرعت بالا در گرفتن نتایج با دقت بالا در زمان تعیین شده، تحصیلات مناسب شرکت کنندگان در فعالیت و بومی بودن طرح اجرایی از ویژگی های این پژوهش هستند. در این پژوهش یک کار یادگیری ماشین انجام شد تا بتوانیم در ضمن آن فعالیت های جمع سپاری را با الگوریتم های شبکه عصبی عمیق ترکیب نماییم.  وظیفه کلاس بندی برای تعبیه لغات به صورت الگوریتمی و تلفیقی با کمک جمع سپاری انجام می شود. روش پیشنهادی با افزودن داده های جمع سپار به داده های قبلی و تغییرات در مدل تعبیه لغات ترکیبی گلاو و وردتووک توانست نتایج مناسبی را  در استخراج ویژگی به دست بیاورد.

    کلیدواژگان: جمع سپاری، تعبیه لغات، گلاو، وردتووک، طبقه بندی
  • معصومه رضائی، مهدی رضائیان*، ولی درهمی صفحات 111-124

    پردازش ابرهای نقطه ای یکی از زمینه های در حال رشد در بینایی ماشین است. با پیدایش حس گرهای عمق ارزان قیمت علاقه زیادی به پردازش ابرهای نقطه ای و استفاده از آن در تشخیص اشیای سه بعدی ایجاد شده است. در حالت کلی روش های تشخیص اشیای سه بعدی به دو دسته موضعی و سرتاسری تقسیم می شوند. در روش های سرتاسری شکل کلی مدل توصیف شده درحالی که در روش های موضعی از خصوصیات هندسی ناحیه موضعی اطراف یک نقطه برای به دست آوردن ویژگی آن نقطه استفاده می شود. برخلاف روش های سرتاسری، روش های موضعی نیاز به قطعه بندی ندارند و نسبت به پدیده انسداد و درهم ریختگی مقاوم تر هستند. روش های مبتنی بر ویژگی های موضعی، برخی از ویژگی های هندسی را از سطوح محلی اطراف نقاط خاصی به نام نقاط کلیدی استخراج می کنند. ویژگی های هندسی یک نقطه کلیدی در یک توصیف گر ویژگی کدگذاری می شوند. چگونگی توصیف محیط پیرامون یک نقطه کلیدی چالش اصلی این روش هاست. روش های موضعی که به طورمعمول مورد استفاده قرار می گیرند، اغلب به نوفه، تغییر وضوح مش و تبدیل صلب حساس هستند. برای غلبه بر چنین مشکلاتی، در این مقاله توصیف گر موضعی جدیدی بر اساس نگاشت مرکاتور ارایه شده است. نگاشت مرکاتور یکی از معروف ترین نگاشت های سه بعد به دو بعد است که فاصله، زاویه، جهت، طول و عرض جغرافیایی نسبی را بین هر دو نقطه در ابرهای نقطه ای حفظ می کند. به منظور ارزیابی، روش پیشنهادی با تعدادی از روش های مطرح مقایسه شده است. برتری این روش بر سایر روش ها با استفاده از معیارهای خطای جذر میانگین مربعات، نمودار بازخوانی در برابر دقت، خطای ثبت کردن، خطای چرخش و انتقال نشان داده می شود و اثبات می شود که این روش قدرت توصیفی خوبی دارد و نسبت به تبدیل صلب، نویز و تغییر وضوح مش مقاوم است.

    کلیدواژگان: ابر نقطه، تشخیص اشیای سه بعدی، توصیف گر موضعی، نگاشت مرکاتور
  • داود ذبیح زاده*، سعید زاهدی، رضا منصفی صفحات 125-136

    تعیین شباهت/ فاصله داده ها در بسیاری از الگوریتم های یادگیری ماشین، شناسایی الگو و داده کاوی کاربرد دارد. در بسیاری از کاربردها، معیارهای عمومی شباهت/فاصله کارایی بالایی ندارد و به طورمعمول با استفاده از داده ها می توان معیار مناسب تری را یاد گرفت. داده های آموزشی برای این منظور به طورمعمول به صورت زوج های مشابه و نامشابه و یا محدودیت های سه گانه هستند. در کاربردهای واقعی، این داده های آموزشی از طریق اینترنت و به طورمعمول با روش هایی نظیر Crowdsourcing جمع آوری می شود که می تواند حاوی نوفه و اطلاعات اشتباه باشد. کارایی روش های یادگیری متریک در صورت وجود اطلاعات آموزشی نوفه ای و اشتباه به شدت افت می کند و حتی ممکن است این روش ها از معیارهای عمومی فاصله نظیر اقلیدسی نیز بدتر عمل کنند. بنابراین نیاز به مقاوم سازی روش های یادگیری متریک در برابر نوفه برچسب وجود دارد. در این پژوهش، یک تابع احتمالاتی جدید برای تعیین احتمال نوفه ای بودن برچسب داده ها با استفاده از محدودیت های سه گانه آموزشی ارایه شده است که باعث می شود، الگوریتم یادگیری متریک بتواند داده های پرت و نوفه ای را شناسایی کند و تاثیر آن ها را فرایند یادگیری کاهش دهد. همچنین نشان داده شده است که چگونه از اطلاعات به دست آمده می توان برای افزایش کارایی الگوریتم مبتنی بر متریک (مانند kNN) بهره برد و عملکرد آن را به طور قابل ملاحظه ای افزایش داد. نتایج آزمایش ها بر روی مجموعه ای از داده های ساختگی و واقعی، تایید می کند که روش پیشنهادی به طور قابل ملاحظه ای کارایی روش های یادگیری متریک را در محیط هایی با نوفه برچسب بهبود می بخشد و بر روش های همتا در مرزهای دانش در سطوح مختلف نوفه برچسب برتری دارد.

    کلیدواژگان: یادگیری متریک مقاوم، نوفه برچسب، داده های پرت، معیار فاصله
  • زهرا عابدی، مهدی یزدیان دهکردی* صفحات 137-152

    رادارهای سار (SAR) یکی از ابزارهای تصویربرداری در شرایط مختلف آب و هوایی در کاربردهای نقشه برداری، نظامی، منابع زمینی و عمرانی می باشند. در سال های اخیر یک رادار جدید، جهت ثبت ویدیو اشیا در حالت حرکت با توسعه رادارهای سار به نام ویدیوسار یا به اختصار ویسار (ViSAR) برای نظارت محیطی ارایه شده است. به مانند تصاویر سار، یکی از چالش های اساسی در داده ویسار نیز وجود نویز اسپکل است. در این مقاله با سفارشی سازی روش های رفع نویز تصویر برای رفع نویز ویدیو ویسار، سه رویکرد مختلف شامل "فریم به فریم"، "میانگین گیری" و "سه بعدی" ارایه و ارزیابی شده است. در رویکرد نخست، بدون توجه به بعد زمان هر فریم از ویدیو به صورت مجزا رفع نویز شده و در رویکرد دوم، از میانگین گیری فریم های رفع نویزشده در بعد زمان استفاده شده است. در رویکرد سه بعدی، از بلاک های سه بعدی در بعد مکان و زمان برای رفع نویز در ویدیو استفاده شده است. علاوه بر این رویکردها، راهکار جدیدی با نام ViSAR Incremental BM3D یا به اختصار ViSAR-IBM3D با توسعه روش مشهور رفع نویز تصویر SAR-BM3D نیز ارایه شده که توانسته است با تغیر ساختار این روش برای ویدیو، زمان اجرای کمتر و حفظ جزییات بهتری را به همراه آورد. روش SAR-BM3D در گام نخست در فضای موجک تخمین اولیه از تصویر بدون نویز را محاسبه کرده و سپس در گام دوم به کمک تصویر نویزی و تخمین اولیه، تصویر رفع نویز شده نهایی را تخمین می زند. در روش ViSAR-IBM3D با بهره گیری از همبستگی بین فریم های متوالی ویدیو، از نتیجه فریم قبلی برای رفع نویز فریم جاری استفاده شده تا بتوان علاوه بر حفظ جزییات و تمایز تصاویر، زمان اجرای الگوریتم را نیز بهبود بخشید. نتایج به دست آمده بر روی ویدیو با نویز شبیه سازی و همچنین ویدیو واقعی ویسار، کارایی رویکرد سه بعدی پیشنهادی نسبت با سایر رویکردها و همچنین کارایی بالاتر روش پیشنهادی ViSAR-IBM3D نسبت به روش های قبلی را نشان می دهد.

    کلیدواژگان: رفع نویز اسپکل، سار، ویدئو ویسار، SAR-BM3D، ViSAR-IBM3D
  • جعفر پرتابیان، وحید رافع*، حمید پروین، صمد نجاتیان، کرم الله باقری فرد صفحات 153-166

    روش وارسی مدل، روشی رسمی و موثر جهت تایید سامانه های نرم افزاری است که با تولید و بررسی همه حالت های ممکن مدلی از سامانه نرم افزار به تحلیل آن می پردازد. در سامانه های ایمنی- بحرانی، نمی توان ریسک بروز خطا را حتی در فرآیند تست پذیرفت و لذا لازم است فرآیند درستی یابی، قبل از پیاده سازی و در سطح مدل انجام شود. استفاده از این روش به منظور بررسی خواصی مانند ایمنی ایجاب می کند که تمام حالت های قابل دسترس (تمام فضای حالت) تولید و سپس فضای حالت سامانه مورد نظر به صورت دقیق بررسی شوند. چالش اساسی روش وارسی مدل در سامانه های بزرگ و پیچیده که دارای فضای حالت گسترده و نامحدود هستند، مشکل انفجار فضای حالت (کمبود حافظه در تولید همه حالت های ممکن) است. سامانه های تبدیل گراف، از پرکاربردترین سامانه های مدل سازی رسمی و راه کاری مناسب به منظور مدل سازی و وارسی سامانه های پیچیده هستند. در سامانه هایی که تایید ویژگی ایمنی غیرممکن است، می توان با جستجوی یک حالت قابل دسترسی که در آن پیکربندی خاصی (به عنوان مثال خطا یا رفتار نامطلوب) رخ می دهد، ویژگی ایمنی را رد کرد. مطالعات اخیر حاکی از آن است که اکتشاف جزیی و هوشمندانه بخشی از فضای حالت می تواند راه حل مناسبی برای مشکل انفجار فضای حالت باشد. هدف این پژوهش، استفاده از الگوریتم جنگل تصادفی در وارسی مدل است که می تواند با گزینش تعداد محدودی مسیر امیدبخش مشکل انفجار فضای حالت را برطرف سازد. مسیری امیدبخش است که احتمال رسیدن به یک جواب از طریق این مسیر، بیشتر از بقیه مسیرها باشد. در روش پیشنهادی، ابتدا مدل کوچکی از سامانه با استفاده از زبان رسمی سامانه توصیف گراف (GTS) ایجاد، سپس، از فضای حالت مدل کوچک، مجموعه آموزشی از مسیرهایی که به هدف می رسند ایجاد می شود. پس ازآن، مجموعه آموزشی تولیدشده در اختیار الگوریتم جنگل تصادفی قرار داده می شود تا روابط منطقی موجود در آن شناسایی و کشف شوند. در مرحله بعد از دانش به دست آمده جهت پیمایش هوشمند و غیر کامل فضای حالت مدل بزرگ استفاده می شود. رویکرد پیشنهادی برای تایید ویژگی دسترس پذیری و رد ویژگی ایمنی در سامانه های بزرگ و پیچیده که ایجاد تمام فضای حالت سامانه ناممکن است، استفاده می شود. به منظور ارزیابی رویکرد پیشنهادی، این رویکرد  در ابزار GROOVEکه از ابزار متن باز برای طراحی و وارسی مدل برای سامانه های تبدیل گراف است، اجراشده است. نتایج نشان می دهند که روش پیشنهادی ازنظر میانگین زمان اجرا و طول شاهد تولیدشده نسبت به روش های مورد مقایسه عملکرد بهتری دارد.

    کلیدواژگان: وارسی مدل، تایید سامانه های نرم افزاری، کشف دانش، انفجار فضای حالت، جستجوی هوشمند
|
  • Payam Bahrani, Behrouz Minaei Bidgoli, Hamid Parvin*, Mitra Mirzarezaee, Ahmad Keshavarz Pages 1-18

    Recommender systems that predict user ratings for a set of items are known as subset of information filtration systems. They help users find their favorite items from thousands of available items. One of the most important and challenging problems that recommendation systems suffer from is the problem of dispersion. This means that due to the scatter of data in the system, they are not able to find popular items with the desired reliability and accuracy. This is especially true when there are a large number of items and users in the system and the filled ratings are low. Another challenging problem that these systems suffer from is their scalability. One of the major problems with these systems is the cold start. This problem occurs due to the small number of items rated by the user, i.e. the scatter of users. This problem is divided into two categories: new user and new item. The main focus of this article is on the problem of the new user type. This problem occurs when a new user has just logged in and has not rated any item yet, or when the user has already logged in but has been less active in rating. The goal is to address these three challenges. In this study, an ontology-based hybrid recommender system is introduced in which ontology is used in the content-based filtering section, while the ontology structure is improved by the collaborative filtering section. In this paper, a new hybrid approach based on combining demographic similarity and cosine similarity between users is presented in order to solve the cold start problem of the new user type. Also, a new approach based on combining ontological similarity and cosine similarity between items is proposed to solve the cold start problem of the new item type. The main idea of the proposed method is to extend users’/items’ profiles based on different mechanisms to create higher-performance profiles for users/items. The proposed method is evaluated in a real data set, and experiments show that the proposed method performs better than the advanced recommender system methods, especially in the case of cold start.

    Keywords: Recommender System, Ontology, Profile Expansion, Hybrid Recommender System
  • Hossein Sadr, Mir Mohsen Pedram*, Mohammad Teshnehlab Pages 19-38

    People's opinions about a specific concept are considered as one of the most important textual data that are available on the web. However, finding and monitoring web pages containing these comments and extracting valuable information from them is very difficult. In this regard, developing automatic sentiment analysis systems that can extract opinions and express their intellectual process has attracted considerable attention in recent years. Sentiment analysis is considered as one of the most active research areas in the field of natural language processing which tries to classify a piece of text containing opinions based on its polarity and determine whether an expressed opinion about a specific topic, event or product is positive or negative. Since about a decade ago, many studies have been carried out to investigate the effects of traditional classification models, such as Support Vector Machine (SVM), Naïve Bayes, Logistic Regression, etc. in the task of sentiment analysis. Although machine learning models have achieved great success in this filed, they are still confronted with some limitations, notably manual feature engineering requirements. In other words, the classification performance of machine learning models is highly dependent on the extracted features and they play an important role in obtaining higher classification accuracy. To deal with these problems, deep learning models have been extensively employed as an alternative to traditional machine learning models and have achieved impressive results. It is worth mentioning that despite the remarkable performance of these methods, they are still confronted with some limitations and they are on their first steps of progress. Therefore, the goal of this paper is to propose a combinational deep learning model that can overcome their problems as well as utilizing their benefits. In this regard, an efficient method based on combination of convolutional and recursive neural networks is proposed in this paper that employs a generalized recursive neural network, where an intermediate feature is obtained by combining children's nodes, as an alternative of pooling layer in attention-based convolutional neural network with the aim of capturing long term dependencies and decreasing the loss of local information. Based on empirical results, the proposed method with the accuracy of 53.92% and 92.89% respectively on SST1 and SST2 datasets not only outperforms other existing models but also can be trained much faster.

    Keywords: Sentiment analysis, Deep Leaning, Convolutional neural network, Recursive neural network, Attention mechanism
  • Hadiseh Poorali, Hesam Omranpour* Pages 39-42

    In this paper, a method is presented for predicting time series. Time series prediction is a process which predicted future system values based on information obtained from past and present data points. Time series prediction models are widely used in various fields of engineering, economics, etc. The main purpose of using different models for time series prediction is to make the forecast with the greatest accuracy. The model presented in this paper is based on the combination of kernels and support vector regression. Support vector regression is highly capable of solving function estimation problems by using its kernels, but kernels’ parameters need to be adjusted. First we have preprocessing phase which includes normalizing data and separating data for testing and training. In proposed model, ten different kernels were used. Five kernels were selected as the best kernels by trial and error and these kernels are applied to data. There probably is only a few of the kernels that are useful for the problem, and we are not aware of which kernels are useful for our problem so kernel outputs aggregate by applying a coefficient. This combination creates a new secondary space. The output is given to support vector regression to construct a model that predicts values exactly ɛ accurate, which means the predicted values do not deviate more than ɛ from the original data. This model predicts values by using a leave one out model. Each kernel has parameters that need to be set to optimum values in order to get the best results. Hence in the proposed model, the kernel parameters and their weights are learned by the Gray Wolf Optimizer. This optimizer has been able to provide appropriate answers to many problems, especially challenging problems and has a superior ability to solve the high-dimension problems. By running program in consecutive iterations and examining the different values of the parameters, the optimizer learns the best of them which prediction error has been reduced, and finally returns their best value. The proposed model is implemented on five standard time series and compared to other method, test based on the RMSE criterion for DJ time series, improved by 1.58 point, Radio time series, improved by 0.178 point, and Sunspot time series, improved by 1.709 point. Finally, we analyzed the results, Statistical evaluation by Wilcoxon Signed-Rank Test where the p value is very low compared to the proposed method and CNN-FCM, AR_ model per scale, Multiresolution AR model and ANN methods, slightly lower for Wavelet-HFCM and ANFIS methods and slightly lower than one for SAE-FCM method and at the end provide a relation to find the window size in the model by obtaining the average of peak differences, valley differences, and consecutive peak, and valley differences for the actual values of the training data in exchange for their sequence number in time series.

    Keywords: Time series prediction, Support vector regression, Ensemble kernel model, Optimization
  • Abbas Dehghani*, Keyvan Rahimizadeh Pages 43-58

    Network-on-Chip (NoC) has emerged as leading interconnection backbone to integrate numerous blocks in a single chip. Although it offers a high-performance communication infrastructure by using integrated switch-based networks, the possible performance improvement of a conventional NoC is restricted by multi-hop communications due to high transmission latency and power consumption incurred by the data transmission between two distant cores.  In order to mitigate this problem, wireless NoC (WNoC) architecture has proposed as an alternative solution to design flexible, low-power, and high bandwidth communication infrastructures for the future multicore platforms. It is necessary to mention that wire-based interconnections are still highly effective for short distances communications. Therefore, hybrid WNoC architectures are emerged as scalable communication structure to alleviate the deficits of traditional NOC architecture for the modern multicore systems. The hybrid WNoC architecture provides energy efficient, high data rate and flexible communications for NoC architectures. In these architectures, each wireless router is shared by a set of processing cores. However, sharing links between cores increases congestion in the network that limits the performance and scalability of NoCs and affects the system to work at less than its peak gain. Moreover, the congestion can heightens network inefficiency when the network is scaled to more nodes. In this paper, we propose a novel congestion-aware mesh-based WNoC architecture to address these issues. We consider optimization of the system cost and performance, simultaneously. For congestion control, it is recommended to include a multi-path routing. This means that several routes are calculated and recorded for each destination and finally the traffic load is distributed. Paths are selected based on their scores, which are obtained dynamically. When a path is used to transmit packets, the score of that path is reduced so that fewer packets are sent from that path and more scored paths are used. This approach aims to the distribution of traffic loads on the paths. The performance of the proposed architecture has been evaluated and compared with notable WNoC architectures through comprehensive simulations. The experimental results demonstrated the effectiveness of the proposed design under both synthetic and realistic traffic patterns in terms of network throughput, latency, and energy consumption.

    Keywords: Network on Chip, Wireless communications, Multicore, System-on-Chip, Congestion
  • Mohsen Rezvani*, Mansoor Fateh Pages 59-74

    The expansion of the use of information exchange space and public access to communication networks such as the Internet has led to the growing dependence of social institutions on the use of these networks. However, maintaining the security of information exchanged on networks is one of the most important challenges for users of these networks. One way to protect this data is to use private networks. But building these networks is not cost-effective in terms of time and cost. In contrast, the use of encryption techniques, access control mechanisms and data concealment are among the effective solutions for security in the information exchange space. Existing methods for hiding information can be divided into three categories: cryptography, watermarking and steganography. In cryptography, a simple text is converted into encrypted text, which, of course, requires a decryption operation as well as an encryption key. In general, cryptographic techniques suffer from two major problems. The first problem is the ban on the transmission of encrypted data in dictatorial regimes, and the second problem is that cryptographers pay attention to encrypted data and stop any secret communication. The second category of information hiding methods is watermarking. Watermarking techniques are commonly used to protect the copyright of a digital content and to deal with issues such as fraud, fraud and copyright infringement in the data transfer space. In steganography methods, the transfer of information takes place in a cover through public communication channels, and only the sender and receiver are aware of the existence of a secret message. Two aspects of steganography must be observed. The first aspect is that the cover and secret content look the same in the face of statistical attacks. The second aspect is that the process of hiding the secret message in the cover is such that there is no difference between the cover and the secret in terms of the human perceptual system. In fact, the accuracy of the transmission media is maintained. Steganography methods use image, video, protocol, audio, and text platforms to hide information. Steganography in the text is difficult due to very little local variation. Humans are very sensitive to textual changes. Hence it is difficult to spell in the text. However, due to the high use of text in digital media, the insensitivity of text to compression, the need for less memory to store and communicate more easily and faster, many methods for steganography have been introduced in it. In addition, text is still one of the major forms of communication available to the general public around the world. In this paper, we propose a new email steganography scheme using a dictionary-based compression. In the proposed scheme, a number of email addresses containing a hidden message will be generated using the submitted text. The submitted text is sent to the generated and recipient addresses at the same time. This does not reveal the identity of the recipient of the message, and only the recipient can extract secret message using other email addresses. In the proposed method, two steganography keys are used. Using these two keys increases the security level of the proposed method. Also, the capacity of the proposed method is unlimited, which of course is a great advantage in a steganography method. This unlimited capacity provides high security for the proposed method. Another advantage is that the proposed method is not limited to the type of the cover-text. Initially, the secret message is converted to a bit string by a dictionary. Then the operation of embedding the secret message in the recipient's addresses is done by the steganography keys. The efficiency of steganography algorithms depends on various factors such as lack of detection by the human eye, lack of detection by statistical methods, and capacity. The proposed method does not change the cover-text. Hence, this method is not detectable by humans or statistical methods. The capacity of the proposed method in this research is based on built-in email addresses. As the text of the message increases, the number of emails created increases too. Of course, this increase in the address of the emails created can lead to suspicion of the emails sent. Therefore, the parameter of the number of emails created is also important in the evaluation. In this paper, the efficiency of the proposed method is evaluated based on the two parameters and compared with existing methods. The results of this evaluation show that the proposed method, in addition to providing unlimited capacity in steganography, produces fewer email addresses generated as well as fewer message bits after compression.

    Keywords: Email Steganography, Dictionary, Capacity, Security
  • Fershteh Javadzadeh, Mehdi Yaghoubi*, Soheila Karbasi Pages 75-86

    In recent years, business process management (BPM) has been highly regarded as an improvement in the efficiency and effectiveness of organizations. Extracting and analyzing information on business processes is an important part of this structure. But these processes are not sustainable over time and may change for a variety of reasons, such as the environment, human resources, capital market changes, seasonal, and climate changes. These changes in business processes are referred to as concept drift in event logs. The discovery of concept drifts is one of the challenges in business process management. These drifts may occur suddenly, gradually, periodically, or incrementally. This paper proposes an algorithm for identifying sudden concept drifts in event logs that are created by BPM. Each execution of the process instance follows a specific path in the process model called a trace, all traces that follow the same path in process model are called a variant. The proposed algorithm is based on the distribution of trace variants in the execution of processes. In this method, by moving two sliding windows on the event log, two feature vectors are derived from the two windows trace variants, these windows are named reference and detection windows. Then variants of the two windows are compared by applying statistical G-test and finally the drifts are identified.  In statistics, G-test is likelihood-ratio or maximum likelihood statistical significance test. Experiments on artificial databases show the correctness of the method and its superiority to the previous methods. In the proposed method, the detection accuracy is 0.06% better than state-of-the-art methods on average

    Keywords: Concept drift, event log, process mining, business processes, variant
  • Mir Mohammad Alipour*, Mohsen Abdolhosseinzadeh Pages 87-100

    Recent researches show that diverse systems in many different areas can be represented as complex networks. Examples of these include the Internet, social networks and so on. In each case, the system can be modeled as a complex and very large network consisting of a large number of entities and associations between them. Most of these networks are generally sparse in global yet dense in local. They have vertices in a group structure and the vertices within a group have higher density of edges while vertices among groups have lower density of edges. Such a structure is called community and is one of the important features of the network and is able to reveal many hidden characteristics of the networks. Today, community detection is used to improve the efficiency of search engines and discovery of terrorist organizations on the World Wide Web. Community detection is a challenging NP-hard optimization problem that consists of searching for communities. It is assumed that the nodes of the same community share some properties that enable the detection of new characteristics or functional relationships in a network. Although there are many algorithms developed for community detection, most of them are unsuitable when dealing with large networks due to their computational cost. Nowadays, multiagent systems have been used to solve different problems, such as constraint satisfaction problems and combinatorial optimization problems with satisfactory results. In this paper, a new multiagent reinforcement learning algorithm is proposed for community detection in complex networks. Each agent in the multiagent system is an autonomous entity with different learning parameters. Based on the cooperation among the learning agents and updating the action probabilities of each agent, the algorithm interactively will identify a set of communities in the input network that are more densely connected than other communities. In other words, some independent agents interactively attempt to identify communities and evaluate the quality of the communities found at each stage by the normalized cut as objective function; then, the probability vectors of the agents are updated based on the results of the evaluation. If the quality of the community found by an agent in each of the stages is better than all the results produced so far, then it is referred to as the successful agent and the other agents will update their probability vectors based on the result of the successful agent. In the experiments, the performance of the proposed algorithm is validated on four real-world benchmark networks: the Karate club network, Dolphins network, Political books network and College football network, and synthetic LFR benchmark graphs with scales of 1000 and 5000 nodes. LFR networks are suitable for systematically measuring the property of an algorithm. Experimental results show that proposed approach has a good performance and is able to find suitable communities in large and small scale networks and is capable of detecting the community in complex networks In terms of speed, precision and stability. Moreover, according to the systematic comparison of the results obtained by the proposed algorithm with four state-of-the-art community detection algorithms, our algorithm outperforms the these algorithms in terms of modularity and NMI; also, it can detect communities in small and large scale networks with high speed, accuracy, and stability, where it is capable of managing large-scale networks up to 5000 nodes.

    Keywords: Complex networks, Community detection, Multiagent systems, Reinforcement learning, Modularity Q
  • Mohammad Jafarabad*, Rouhollah Dianat Pages 101-110

    For data mining studies, due to the complexity of doing feature selection process in tasks by hand, we need to send some of labeling to the workers with crowdsourcing activities. The process of outsourcing data mining tasks to users is often handled by software systems without enough knowledge of the age or geography of the users' residence. We use convolutional neural network, for doing classification in six classes: USAGE, TOPIC, COMPARE, MODEL-FEATURE, RESULT and PART-WHOLE. This article extracts the data from the abstract of 450 scientific articles and it is a total of 835 relations. One hundred of these abstracts have been selected by the crowdsourcing. Classification results in this article have been done with a slight improvement in accuracy. In this study, we computed the classification results on a combination of vocabulary vectors with using of 450 abstract relation data (100 crowd source datasets with 350 standards). The results of the implementation of the classification algorithm give us performance improvement. This paper uses the population power to perform preparing data mining works. The proposed method by adding crowdsource data to the previous data was able to obtain better results rather than the top 5 methods.

    Keywords: Glove, Word2vec, Crowdsourcing, word embedding, classification
  • Masoumeh Rezaei, Mehdi Rezaeian*, Vali Derhami Pages 111-124

    The processing of point clouds is one of the growing areas in machine vision. With the advent of inexpensive depth sensors, there has been a great interest in point clouds to detect three-dimensional objects. In general, 3D object recognition methods are alienated into two classes: local and global feature-based methods.  In global feature-based methods, the entire shape of the model is described, while in local methods, the geometric properties of the local area around a point are used to obtain the characteristic of the point. Unlike global methods, local methods do not entail any segmentation and they are more robust to clutter and occlusion. The local feature-based methods extract some geometric features from local surfaces around specific points named keypoints. The geometric features of a keypoint are encoded into a feature descriptor. How to describe the environment around a keypoint is the main challenge of these methods. The commonly used local feature-based methods often are sensitive to noise, varying mesh resolution, and rigid transformation. To overcome such disadvantages, in this paper, a new local feature descriptor based on the Mercator projection is proposed. The Mercator projection is one of the most popular 3D to 2D projections that can preserve true distance, direction, and relative longitude and latitude between any two points in point clouds. To evaluate, the proposed method has been compared with several state-of-the-art descriptor methods. The superiority of this method over other methods is shown by using the criteria of square Root Mean Square Error (RMSE), Recall versus 1-Precision Curve (RPC), and registration correction, rotation, and translation errors, and it is proved that this method has good descriptiveness power and it is robust to noise and varying mesh resolution.

    Introduction

    In this paper, we propose a new local descriptor to provide robust and precise geometric features. The geometric features are extracted using the Mercator projection of the neighborhood sphere. Our contributions are as follows: (1) The proposed descriptor directly learns from the point clouds (2) using the proposed method, there is only one representation for each point so the problem of multiple representations of a point is addressed. Also, the Mercator projection has many properties that make it appropriate for data representations in a point cloud. (3) It can accurately describe the geometric properties around a point. (3) The Mercator projection is a conformal projection so it preserves true distances, directions, and relative longitudes and latitudes. (4) It keeps small element geometry, which means Mercator projection preserves the shapes of small regions. 

    The proposed method

    Given a query point p, a sphere of radius r is centered at p for determining the neighbor points. Then Mercator projection is used for mapping the sphere into a plane with considering the Local reference frame (LRF) as previously suggested by Tombaret al. (2010b). The Mercator projection is a cylindrical projection that was proposed by G. Mercator in 1569. In this projection, the surface of a sphere is mapped into a plane. It preserves true distances, directions, and relative longitudes and latitudes. The Mercator projection for each point is identified using two following equations:(2)where λ is the  longitude and φ is the  latitude of a point  in the sphere, and (x,  y) represents corresponding point  in the Cartesian map. For extracting images as the input of the Siamese network, we need ranges for achieved x and  y. The variable x is in the interval [−π,  π] but range of y is different for the Mercator projection of each keypoint. As a result, the minimum and maximum of the variable y for all neighbor points are considered as the range of y, then a histogram 30 × 30 is measured. The Mercator projections of all neighbors are defined and the number of points  in each bin counted. Then we normalize the histogram by dividing each bin by the total number of neighbor points, it causes more robustness to noise and mesh resolution.

    Results and discussion

    The performance of the proposed method is evaluated on the Bologna (Tombari et al., 2010c) and John Burkardt in terms of RMSE, RPC and registration correction rate, rotation and translation errors. The proposed outperforms other methods in term of RPC also the results show that the method is robust to noise, rigid transformation and varying mesh resolution.

    Keywords: Point cloud, 3D object recognition, Local descriptor, Mercator projection
  • Davood Zabihzadeh*, Saeed Zahedi, Reza Monsefi Pages 125-136

    Many algorithms in machine learning, pattern recognition, and data mining are based on a similarity/distance measure. For instance, the kNN classifier and clustering algorithms such as k-means require a similarity/distance function. Also, in Content-Based Information Retrieval (CBIR) systems, we need to rank the retrieved objects based on the similarity to the query. As generic measures like Euclidean and cosine similarity are not appropriate in many applications, metric learning algorithms have been developed with the aim of learning an optimal distance function from data. These methods often need training data in the form of pair or triplet sets. Nowadays, this training data is popularly obtained via crowdsourcing from the Internet.  Therefore, this information may be contaminated with label noise resulting in the poor performance of the learned metric. In some datasets, even it is possible that the learned metrics perform worse than the general ones such as Euclidean. To address this emerging challenge, we present a new robust metric learning algorithm that can identify outliers and label noise simultaneously from training side information. For this purpose, we model the probability distribution of label noise based on information in the training data. The proposed distribution function efficiently assigns the high probability to the data points contaminated with label noise. On the other hand, its value on the normal instances is near zero. Afterward, we weight the training instances according to these probabilities in our metric learning optimization problem. The proposed optimization problem can be solved using available SVM libraries such as LibSVM efficiently. Note that the proposed approach for identifying data with label noise is general and can easily be applied to any existing metric learning algorithms. After the metric learning phase, we utilized both the weights and the learned metric to enhance the accuracy of the metric-based classifier such as kNN. Several experiments are conducted on both real and synthetic datasets. The results confirm that the proposed algorithm enhances the performance of the learned metric in the presence of label noise and considerably outperforms state-of-the-art peer methods at different noise levels.

    Keywords: Robust Metric Learning, Label Noise, Outlier, Distance Measure
  • Zahra Abedi, Mahdi Yazdian-Dehkordi* Pages 137-152

    Synthetic Aperture Radar (SAR) is widely used in different weather conditions for various applications such as mapping, remote sensing, urban, civil, and military monitoring. Recently, a new radar sensor called Video SAR (ViSAR) has been developed to capture sequential frames from moving objects for environmental monitoring applications such as image or video segmentation, classification and change detection. Same as SAR images, the major problem of ViSAR is the presence of speckle noise. In this paper, the performance of several image-based denoising methods is studied for de-speckling of ViSAR frames through “Frame-by-Frame”, “Averaging” and “3D” schemes. In “Frame-by-Frame” scheme, each video frame is denoised independently of the other frames; whereas, in “Averaging” scheme, the denoised images are averaged along a time window. In “3D” scheme, denoising is performed on 3D blocks in space-time (x-y-t) domain. In addition to these schemes, a novel extension on SAR-BM3D method, called ViSAR Incremental BM3D (ViSAR-IBM3D) approach is proposed for video denoising. The SAR-BM3D method performs denoising in two steps. At the first step, it uses wavelet denoising to primitively denoise the original image; in the next step, this image in combination with the original image are used to estimate the final denoised image. The main challenge of SAR-BM3D method is high time complexity especially for video frames. Here, in ViSAR-IBM3D, we benefit from the correlation between the frames of video and utilize the denoised images in previous frame to de-speckle the current frame. The proposed method can remarkably reduce the time complexity and improve preserving the details and the contrast of the denoised frames. The experimental results evaluated on real-world ViSAR video as well as video with simulated noises show that the proposed 3D filtering scheme and the proposed ViSAR-IBM3D method achieve better denoising performance than the other ones.

    Keywords: SAR, ViSAR, Noise, Speckle, SAR-BM3D, ViSAR-IBM3D
  • Jaafar Partabian, Vahid Rafe*, Hamid Parvin, Samad Nejatian, Karamollah Bagherifard Pages 153-166

    The model checking technique is a formal and effective method for verifying software systems, which analyses it via generating and examining all possible states of a model of the software system. In safety-critical systems, one could not admit the risk of error even in the testing process, therefore it is necessary to carry out the verification process before implementation and at the model level. Using this technique to evaluate properties such as security entails all available states (all state space) being generated, then the state space of the system in question be carefully examined. The main challenge of the model checking technique in large and complex systems with wide or infinite state space is the problem of state space explosion (lack of memory in the generation of all possible states). Graph transformation systems are one of the most widely used formal modeling systems and a suitable solution for modeling and checking complex systems. In systems where security property verification is not possible, the security feature can be refuted by searching for an accessible mode in which a specific configuration (e.g. error or undesirable behavior) occurs. Recent studies advocate that partial and intelligent exploration of part of the state space could be a good solution to the problem of state space explosion. The goal of this study is to use the random forest algorithm in the model checking which can solve the problem of state space explosion by selecting a few promising paths. A path is hopeful whenever the probability of reaching an answer through this path is higher than other paths. In the proposed method, a small model of the system is first created using the official language of the Graph Description System (GTS). Afterwards, a training data set of paths to the goal is generated from the small model mode space. The generated training data set is then provided to the random forest algorithm to identify and discover the logical relationships within it. In the next stage, the acquired knowledge is used to intelligently explore the incomplete space of the large model state. The proposed approach is used in the verification of the reachability property and to refute the safety feature in large and complex systems where it is impossible to generate the entire system state space. In order to evaluate the proposed approach, it has been implemented in GROOVE which is an open source tool for designing and checking models in graph conversion systems. The results indicate that the proposed method performs better than the compared methods in terms of average running time and the length of the generated witness.

    Keywords: Software systems verification, Knowledge discovery, State space explosion, intelligent search